半年後にAIはいったいどうなっているのか 2023年上半期

💬雑談

この半年で

LLM

ChatGPT

画像生成

Stable diffusionV1.4→Stable diffusion2.1

Midjourney→Nijijourney

Midjourney v3 → v4でNijijourneyは別枠にしたほうが正確かも？nomadoor.icon

NovelAIDiffusion

画像生成の高速化：数秒～数十秒→コンマ数秒

音声認識

whisper

音楽生成

MusicLM

Moûsai

などなど色々公開された

次の半年でどうなるのか予想してみようwogikaze.icon

個人的には画像→音声と来たなら次は動画かな？と思っている

txt2animationの時代だ

アニメ(MMD)をi2iした動画は852話さんが作っていたが一貫性を持たせるのに苦労しているみたい

この”一貫性”もキーワードになりそう

Shape-aware Text-driven Layered Video Editingみたいな編集も発達しそう

TTSはどうだろう、日本に住んでいるとゆっくりができてから長い年月が経って研究されているのでそこまで進まない？

半年じゃすぐに声を追加できる程度しか変わらなさそう

nomadoor.icon

大サービス乱立時代！

QRコード決済然り、NFT然り

txt2img,img2img,InstructPix2Pix etc.を完全に統合させて最初から最後まで完全にチャットのみのワークフロー実現

→マルチモーダルAIの一歩手前？

2023/3/9 Visual ChatGPTで一応実現nomadoor.icon

チャットのみのワークフローがそもそもあまりデザインと相性が良くなかった

二次元を二次元のまま扱うアニメーションモデル

MMDのimg2imgはロトスコープであってアニメではない(過激派)

動画を動画のまま学習させるモデルってあるんだろうか？

text2videoモデルはたくさん出てきたnomadoor.icon

AnimateDiffがいい感じwogikaze.icon

AIが直接現実世界を見て学ぶ

GPT-3みたいに臨界点を迎えれば動画AIもいきなり上手くいくかもしれない

でも現状学習させるための動画が足りないらしい

カメラつけて直接見てもらおう！

日本語LLM

日本語で表現することに意味があるような気がしないこともない

コスパがよくない気がしてきた

ChatGPTとかが日本語で聞いたとき英語に翻訳しているのか、日本語のまま理解しているのかでも意見が変わりそう

企業からはいくつか出たけど、コミュニティとしてはほぼ何もなかったnomadoor.icon

リアルタイムレンダリング

Emadさん、30fps楽しみにしてます

コンピューティングのコスト的な意味で難しそう基素.icon

FlexGenとかを見てると最適化で辿りついてしまいそうな気もしますねnomadoor.icon

根本的なモデルの変化にも期待基素.icon

SnapFusionとかでやろうと思えばできそうだけど、捨てられないものが多いのかなかなか進まないnomadoor.icon

LCM, SDXL-Turbo etc.

守備範囲を超えれば、ロボットにARにゲームに…ああ楽しみ！

総評 2023/7/1